Aggregated Residual Transformations for Deep Neural Networks
Abstract & Introduction
- VGG模型展示一种简单高效的网络搭建策略:堆叠相同构造的block。ResNet继承了这一策略,减少了超参的可选度,使得网络深度成为一个需要重要考量的维度。作者认为这种简单的策略同时减少了过拟合数据集的风险。
- Inception系列的网络通过精细设计网络拓扑,使得其能在低复杂度的情况下达到很高的准确率。在Inception模块中,一个核心的策略为split-transform-merge,输入先由1x1卷积分成多个低通道的嵌入,再分别经过一组变换(不同卷积核大小的卷积)后,连接得到结果。正是由这种策略达到高效且低计算复杂度。但是,精细设计的Inception模块中有很多超参(卷积核大小、个数等)需要设定,不易迁移到其他数据集。
- 本文贡献:
- 提出一个简单的网络架构,类似VGG/ResNet的堆叠相同层,同时以简单可扩展的形式利用split-transfrom-merge策略,各transform使用相同的拓扑结构,通过累加结果进行聚合,这种设计使得网络能够在不进行特殊改造的情况下扩展。
- 主张提升cardinality(Transform set的大小)是相比于宽提升度和深度更为高效的提升准确率的途径。
- 证实了在相同参数和计算量的情况下好过原本的ResNet。
Method
Template
ResNeXt是通过堆叠残差块构成的。
这些残差块有着相同的拓扑结构,并遵循两个规则:
- 每个残差块输出相同大小的feature map,卷积核大小和个数相同。
- 每当feature map降采样为1/2,残差块宽度(通道数)乘以2。
Aggregation
Simple Neuron
$$\sum_{i=1}^{D} w_{i} x_{i}$$
ResNeXt
$$\mathbf{y}=\mathbf{x}+\sum_{i=1}^{C} \mathcal{T}_{i}(\mathbf{x})$$
Equivalent
Notation
ResNeXt-50 (32×4d) 输入输出通道数为256,32x4d 指的是 32组3x3卷积核,每个卷积核的通道数为4,
Experiment
- 相比于ResNet-50,32×4d ResNeXt-50的错误率降低了1.7%,同时随着Cardinalty从1增大到32,其错误率逐渐降低。且32×4d ResNeXt-50相比ResNet,训练错误了也低了很多,因此该模型的准确度提升并不是来源于正则化,而是在特征表达上得到了提升。
- 在维持复杂度不变的情况下,相比提升宽度和深度,提升基数对性能提升更好。